草庐IT

python - pymongo.errors.OperationFailure : error

全部标签

python - 用 python 抓取一些 ofx 数据

我正在尝试使用http://www.jongsma.org/gc/scripts/ofx-ba.py从wachovia获取我的银行帐户信息。运气不好,我决定尝试使用thisexample手动构建一些请求数据。所以,我有这个文件,我想将其用作请求数据。我们称它为req.ofxsgml:FXHEADER:100DATA:OFXSGMLVERSION:102SECURITY:NONEENCODING:USASCIICHARSET:1252COMPRESSION:NONEOLDFILEUID:NONENEWFILEUID:NONE20071015021529.000[-8:PST]TheNam

python - 我如何阻止漂亮的汤在解析时跳过行?

在使用beautifulsoup解析html中的表格时,每隔一行以而不是没有类的tr标签示例HTMLItemA14.8k-555ItemB64.9k+165ItemC4,000+666我要提取的文本是14.8k、64.9k和4,000this1=urllib2.urlopen('myurl').read()this_1=BeautifulSoup(this1)this_1a=StringIO.StringIO()forrowinthis_1.findAll("tr",{"class":"row_k"}):forcolinrow.findAll(re.compile('td')):thi

java - 过滤维基百科的 XML 转储 : error on some accents

我正在尝试索引Wikpediadumps.我的SAX解析器只使用我关心的字段为XML生成Article对象,然后将它发送到我的ArticleSink,后者生成Lucene文档。我想过滤特殊/元页面,例如那些以Category:为前缀的页面或Wikipedia:,所以我制作了这些前缀的数组,并使用article.getTitle.startsWith(prefix)在我的ArticleSink中针对此数组测试每个页面的标题.在英语中,一切正常,我得到了一个Lucene索引,其中包含除匹配前缀之外的所有页面。在法语中,不带重音的前缀也有效(即过滤相应的页面),一些带重音的前缀根本不起作用(

python - XML 和 Python : Get the namespaces declared in root element

如何访问XML树根元素处的多个xmlns声明?例如:importxml.etree.cElementTreeasETdata="""...allotherchildelementshere..."""tree=ET.fromstring(data)#Idon'tknowwhattodohereafterwards我想得到一个类似于这个的字典,或者至少是某种格式,以便更容易地获取URI和匹配的标签{'one':"http://www.first.uri/here/",'two':"http://www.second.uri/here/"} 最佳答案

python - 如何将xml header 添加到dom对象

我正在使用Python的xml.dom.minidom,但我认为这个问题对任何DOM解析器都是有效的。我的原始文件开头有这样一行:这似乎不是dom的一部分,所以当我执行类似dom.toxml()的操作时,生成的字符串在开头没有一行。如何添加?示例输出:BANDSAWBLADES希望清楚。 最佳答案 Thisdoesn'tseemtobepartofthedomXML声明没有自己的节点,不,但是其中声明的属性在Document对象上可见:>>>doc=minidom.parseString('')>>>doc.encoding'utf

python - 使用元素树读取动态xml

环境:Windows、Python、wxpython和Elementtree作为xml解析器。我正在开发一个独立的系统,它可以读取xml并创建一棵树。我的应用程序读取xml并创建树,但是当xml下次更改时(当xml的深度增加时-我的意思是当添加两个子元素时)。应用程序无法读取(逻辑失败:()例如我写了一个逻辑,可以读取任何深度为5的xml。但是当它读取深度超过5的xml时,它会失败。请告诉我如何读取深度为动态的xml。 最佳答案 你应该使用递归调用,更像是:defrecurse_tree(node):tree={}forelemen

python - 如何使 xml.sax 对其 DTD 请求使用 HTTP 代理?

XMLparsersoftensendoutHTTPrequestsforfetchingDTDs是一个已知问题文档中引用。具体来说,Python'sonedoesthis.这会导致承载大量此类DTD的www.w3.org流量过大。反过来,这会使XML解析花费很长时间,并且在某些情况下会超时。这可能是一个严重的问题,因为它使一项看似仅与文本处理相关的任务依赖于不可靠的第三方。为了减轻这个问题(因为真正的解决方案非常困难),我想在本地安装一个缓存Web代理并要求xml.sax通过这个代理发送它的请求。我特别不希望代理设置泄漏到其他组件,因此系统范围的设置是不可能的。如何使xml.sax使

.net - SOAP 客户端未正确处理 XML 实体;遇到 "There is an error in XML document"

我们的WCFWeb服务的一些消费者在尝试解析我们的响应时遇到异常:System.InvalidOperationException:ThereisanerrorinXMLdocument(5,-349).atSystem.Xml.Serialization.XmlSerializer.Deserialize(XmlReaderxmlReader,StringencodingStyle,XmlDeserializationEventsevents)atSystem.Xml.Serialization.XmlSerializer.Deserialize(XmlReaderxmlReader

python - 使用自定义元素类在 Python 中解析 xml

我想使用Python的xml.etree.ElementTree模块解析xml文档。但是,我希望生成的树对象中的所有元素都具有我定义的一些类方法。这建议创建我自己的Python元素类的子类,但我无法告诉解析器在解析时使用我自己的元素子类,而不是内置类。例如,假设我希望树中的节点有一个名为custommethod()的新方法。为此,我创建了一个元素子类:classMyElement(xml.etree.ElementTree._Element):defcustommethod():...现在,当我使用解析一棵树时tree=xml.etree.ElementTree.parse(sourc

c# - Xml解析器 : XSLT compiler error

我在使用XmlResolver类时遇到了问题。我有一些XSLT文件保存在MSSQL数据库的xml数据类型列中。我正在尝试编写一个XmlResolver类实现,它将从数据库而不是文件中加载文本。但是我遇到了XSLT编译器错误。这是一个非常简单的例子(输入和xslt的文本都在这里硬编码):staticvoidMain(string[]args){stringxslt=@"";XDocumenttransformationInput=XDocument.Parse("");myResolvres=newmyResolv();XslCompiledTransformtransform=newX